清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能 核心发现: 单阶段训练 + 固定超参数 = SOTA 性能 + 省一半算力意外之喜: 训练曲线平滑得像教科书,4000 步没遇到任何 "典型问题"关键启示: 充分 scale 的简单 baseline,可能比我们想象的强大得多 模型 清华 基线 rl rl配方 2025-11-13 08:05 10